This paper presents a practical global optimization algorithm for the K-center clustering problem, which aims to select K samples as the cluster centers to minimize the maximum within-cluster distance. This algorithm is based on a reduced-space branch and bound scheme and guarantees convergence to the global optimum in a finite number of steps by only branching on the regions of centers. To improve efficiency, we have designed a two-stage decomposable lower bound, the solution of which can be derived in a closed form. In addition, we also propose several acceleration techniques to narrow down the region of centers, including bounds tightening, sample reduction, and parallelization. Extensive studies on synthetic and real-world datasets have demonstrated that our algorithm can solve the K-center problems to global optimal within 4 hours for ten million samples in the serial mode and one billion samples in the parallel mode. Moreover, compared with the state-of-the-art heuristic methods, the global optimum obtained by our algorithm can averagely reduce the objective function by 25.8% on all the synthetic and real-world datasets.
translated by 谷歌翻译
对具有代理商初始位置未知的有限3D环境的多代理探索是一个具有挑战性的问题。它需要快速探索环境,并坚定合并代理商构建的子图。我们认为现有方法是侵略性或保守的:在检测到重叠时,积极的策略合并了两种由不同代理构建的子图,这可能导致由于对重叠的错误阳性检测而导致不正确的合并,因此是如此。不健全。保守策略指导一个代理人在合并之前重新审视另一个代理商的过量验证历史轨迹,这可以降低由于对同一空间的反复探索而引起的勘探效率。为了巧妙地平衡子图合并和勘探效率的鲁棒性,我们为基于激光雷达的多代理探索开发了一种新方法,该方法可以指导一个代理商以\ emph {自适应}方式重复另一个代理商的轨迹子图合并过程的指标。此外,我们的方法通过计划合并子图的代理人共同计划,以进一步提高勘探效率,以\ emph {Cooperative}方式将最近的单格分层勘探策略扩展到多个代理。我们的实验表明,我们的方法平均比基线高出50 \%,同时稳固地合并子映射。
translated by 谷歌翻译
事件提取(EE)是信息提取的重要任务,该任务旨在从非结构化文本中提取结构化事件信息。大多数先前的工作都专注于提取平坦的事件,同时忽略重叠或嵌套的事件。多个重叠和嵌套EE的模型包括几个连续的阶段来提取事件触发器和参数,这些阶段患有错误传播。因此,我们设计了一种简单而有效的标记方案和模型,以将EE作为单词关系识别,称为oneee。触发器或参数单词之间的关系在一个阶段同时识别出并行网格标记,从而产生非常快的事件提取速度。该模型配备了自适应事件融合模块,以生成事件感知表示表示和距离感知的预测指标,以整合单词关系识别的相对距离信息,从经验上证明这是有效的机制。对3个重叠和嵌套的EE基准测试的实验,即少数FC,GENIA11和GENIA13,表明Oneee实现了最新的(SOTA)结果。此外,ONEEE的推理速度比相同条件下的基线的推理速度快,并且由于它支持平行推断,因此可以进一步改善。
translated by 谷歌翻译
从有限的资源中获得最大收益可以进步自然语言处理(NLP)研究和实践,同时保守资源。这些资源可能是数据,时间,存储或能源。NLP的最新工作从缩放率产生了有趣的结果。但是,仅使用比例来改善结果意味着资源消耗也会扩展。这种关系激发了对有效方法的研究,这些方法需要更少的资源才能获得相似的结果。这项调查涉及NLP效率的方法和发现,旨在指导该领域的新研究人员并激发新方法的发展。
translated by 谷歌翻译
我们研究了视频引用表达理解(REC)的问题,该问题旨在将句子中描述的引用对象定位为视频帧中的视觉区域。尽管取得了最近的进展,但现有方法却遇到了两个问题:1)视频帧之间的本地化结果不一致; 2)参考对象和上下文对象之间的混淆。为此,我们提出了一个新颖的双对应网络(称为DCNET),该网络明确增强了框架间和跨模式的密集关联。首先,我们旨在为框架内所有现有实例建立框架间的相关性。具体而言,我们计算框架间的斑点余弦相似性,以估计密集的对齐方式,然后执行框架间的对比度学习以在特征空间中映射它们。其次,我们建议构建细粒斑点字对齐,以将每个贴片与某些单词相关联。由于缺乏这种详细的注释,我们还通过余弦相似性预测了斑点字的对应关系。广泛的实验表明,我们的DCNET在视频和图像基准测试中都达到了最先进的性能。此外,我们进行了全面的消融研究和彻底的分析,以探索最佳模型设计。值得注意的是,我们的框架间和跨模式对比损失是插件功能,适用于任何视频架构架构。例如,通过在共同接地之上进行构建,我们在vid-sentence数据集的Accu。0.5上提高了1.48%的性能。
translated by 谷歌翻译
GAN倒置旨在将输入图像倒入预训练GAN的潜在空间中。尽管GAN倒置最近取得了进步,但减轻失真和编辑性之间的权衡仍然存在挑战,即准确地重建输入图像并以较小的视觉质量下降来编辑倒置图像。最近提出的关键调整模型通过使用两步方法将输入图像转变为潜在代码,称为枢轴代码,然后改变生成器,以便可以准确映射输入图像,从而取得了重大进展,从而取得了重大进展。进入枢轴代码。在这里,我们表明可以通过适当的枢轴代码设计来改进重建和编辑性。我们提出了一种简单而有效的方法,称为“循环编码”,以提供高质量的枢轴代码。我们方法的关键思想是根据周期方案在不同空间中逐步训练编码器:w-> w+ - > w。该训练方法保留了W+空间的性质,即W+的低畸变的高编辑性。为了进一步减少失真,我们还建议使用基于优化的方法来完善枢轴代码,其中引入正则化项以减少编辑性的降解。对几种最新方法的定性和定量比较证明了我们方法的优势。
translated by 谷歌翻译
由于其高识别精度,包括移动设备的面部解锁,社区访问控制系统和城市监视,因此在许多领域都使用了面部识别技术。由于非常深的网络结构可以保证当前的高精度,因此通常需要将面部图像传输到具有高计算能力以进行推理的第三方服务器。但是,面部图像在视觉上揭示了用户的身份信息。在此过程中,不受信任的服务提供商和恶意用户都可以显着增加个人隐私漏洞的风险。当前的隐私识别方法通常伴随着许多副作用,例如推理时间的显着增加或明显的识别准确性下降。本文提出了使用频域中使用差异隐私的保护隐私面部识别方法。由于利用了差异隐私,它在理论上提供了隐私的保证。同时,准确性的丧失非常小。该方法首先将原始图像转换为频域,并删除称为DC的直接组件。然后,可以根据差异隐私框架内的后端面部识别网络的丢失来学习隐私预算分配方法。最后,它为频域特征添加了相应的噪声。根据广泛的实验,我们的方法在几个经典的面部识别测试集中表现出色。
translated by 谷歌翻译
基于草图的3D形状检索(SBSR)是一项重要但艰巨的任务,近年来引起了越来越多的关注。现有方法在限制设置中解决了该问题,而无需适当模拟真实的应用程序方案。为了模仿现实的设置,在此曲目中,我们采用了不同级别的绘图技能的业余爱好者以及各种3D形状的大规模草图,不仅包括CAD型号,而且还可以从真实对象扫描的模型。我们定义了两个SBSR任务,并构建了两个基准,包括46,000多个CAD型号,1,700个现实型号和145,000个草图。四个团队参加了这一轨道,并为这两个任务提交了15次跑步,由7个常用指标评估。我们希望,基准,比较结果和开源评估法会在3D对象检索社区中促进未来的研究。
translated by 谷歌翻译
尽管已经对音频驱动的说话的面部生成取得了重大进展,但现有方法要么忽略面部情绪,要么不能应用于任意主题。在本文中,我们提出了情感感知的运动模型(EAMM),以通过涉及情感源视频来产生一次性的情感谈话面孔。具体而言,我们首先提出了一个Audio2Facial-Dynamics模块,该模块从音频驱动的无监督零和一阶密钥点运动中进行说话。然后,通过探索运动模型的属性,我们进一步提出了一个隐性的情绪位移学习者,以表示与情绪相关的面部动力学作为对先前获得的运动表示形式的线性添加位移。全面的实验表明,通过纳入两个模块的结果,我们的方法可以在具有现实情感模式的任意主题上产生令人满意的说话面部结果。
translated by 谷歌翻译
在本文中,我们提出了一个简单而通用的网络,该网络称为SEQTR,用于视觉接地任务,例如短语本地化,参考表达理解(REC)和分割(RES)。视觉接地的规范范例通常需要在设计网络体系结构和损失功能方面具有丰富的专业知识,从而使它们难以跨越跨任务进行推广。为了简化和统一建模,我们将视觉接地作为点预测问题在图像和文本输入上进行条件,其中边界框或二进制掩码表示为一系列离散坐标令牌。在此范式下,视觉接地任务是在我们的SEQTR网络中统一的,而没有特定于任务的分支或头部,例如RES的卷积蒙版解码器,这大大降低了多任务建模的复杂性。此外,SEQTR还具有简单的交叉渗透损失,共享所有任务的相同优化目标,从而进一步降低了部署手工制作的损失功能的复杂性。五个基准数据集的实验表明,所提出的SEQTR优于现有的最新技术(或与之相提并论),这证明了一种简单而通用的视觉接地方法确实是可行的。源代码可在https://github.com/sean-zhuh/seqtr上获得。
translated by 谷歌翻译